后门攻击已成为深度神经网络(DNN)的主要安全威胁。虽然现有的防御方法在检测或擦除后以后展示了有希望的结果,但仍然尚不清楚是否可以设计强大的培训方法,以防止后门触发器首先注入训练的模型。在本文中,我们介绍了\ emph {反后门学习}的概念,旨在培训\ emph {Clean}模型给出了后门中毒数据。我们将整体学习过程框架作为学习\ emph {clean}和\ emph {backdoor}部分的双重任务。从这种观点来看,我们确定了两个后门攻击的固有特征,因为他们的弱点2)后门任务与特定类(后门目标类)相关联。根据这两个弱点,我们提出了一般学习计划,反后门学习(ABL),在培训期间自动防止后门攻击。 ABL引入了标准培训的两级\ EMPH {梯度上升}机制,帮助分离早期训练阶段的后台示例,2)在后续训练阶段中断后门示例和目标类之间的相关性。通过对多个基准数据集的广泛实验,针对10个最先进的攻击,我们经验证明,后卫中毒数据上的ABL培训模型实现了与纯净清洁数据训练的相同性能。代码可用于\ url {https:/github.com/boylyg/abl}。
translated by 谷歌翻译
最近有很多不可能的结果表明,在与对抗对手的马尔可夫游戏中最小化的遗憾在统计学上和计算上是棘手的。然而,这些结果都没有排除在所有各方采用相同学习程序的假设下,遗憾最小化的可能性。在这项工作中,我们介绍了第一种(据我们所知)在通用马尔可夫游戏中学习的算法,该算法在所有代理商执行时提供了sublinear后悔保证。我们获得的边界是为了置换遗憾,因此,在此过程中,意味着融合了相关的平衡。我们的算法是分散的,计算上有效的,并且不需要代理之间的任何通信。我们的主要观察结果是,在马尔可夫游戏中通过策略优化的在线学习基本上减少了一种加权遗憾的最小化形式,而未知权重由代理商的策略顺序的路径长度确定。因此,控制路径长度会导致加权的遗憾目标,以提供足够的适应性算法提供统一的后悔保证。
translated by 谷歌翻译
我们考虑设计统一稳定的一阶优化算法以最小化的问题。统一的稳定性通常用于获得优化算法的概括误差范围,我们对实现它的一般方法感兴趣。对于欧几里得的几何形状,我们建议采用黑盒转换,给定平滑的优化算法,它产生了算法的均匀稳定版本,同时将其收敛速率保持在对数因素上。使用此减少,我们获得了一种(几乎)最佳算法,以平滑优化,并通过收敛速率$ \ widetilde {o}(1/t^2)$和均匀的稳定性$ O(t^2/n)$,解决一个开放的问题Chen等。(2018);阿蒂亚和科伦(2021)。对于更一般的几何形状,我们开发了一种镜下下降的变体,以平滑优化,收敛速率$ \ widetilde {o}(1/t)$和统一的稳定性$ O(t/n)$(t/n)$,留下了开放的问题转换方法如欧几里得情况。
translated by 谷歌翻译
我们研究了带有切换成本的土匪的最佳世界世界算法,最近由Rouyer,Seldin和Cesa-Bianchi提出,2021年。我们引入了一种令人惊讶的简单有效的算法}(t^{2/3})$在遗忘的对抗设置中,$ \ mathcal {o}(\ min \ {\ log(t)/\ delta^2,T^{2/3} \ \})$在随机约束的制度中,均具有(单位)切换成本,其中$ \ delta $是武器之间的差距。在随机限制的情况下,由于Rouyer等人,我们的界限比以前的结果得到了改善,这使$ \ Mathcal {o}(t^{1/3}/\ delta)$。我们伴随我们的结果,下限表明,通常,$ \ tilde {\ omega}(\ min \ {1/\ delta^2,t^{2/3} \})$遗憾是不可避免的。 - 具有$ \ mathcal {o}(t^{2/3})$ wort-case遗憾的算法的算法。
translated by 谷歌翻译
我们考虑在随机凸成本和状态和成本函数的全部反馈下控制未知线性动力学系统的问题。我们提出了一种计算高效的算法,该算法与最佳的稳定线性控制器相比,该算法达到了最佳的$ \ sqrt {t} $遗憾。与以前的工作相反,我们的算法基于面对不确定性范式的乐观情绪。这导致了大大改善的计算复杂性和更简单的分析。
translated by 谷歌翻译
最新工作的一条有影响力的线重点关注的是针对可分离的线性分类的非规范梯度学习程序的泛化特性,并具有指数级的损失函数。这种方法概括地概括的能力归因于它们对大幅度预测指标的隐含偏见,无论是渐近的还是有限的时间。我们为此概括提供了另一个统一的解释,并将其与优化目标的两个简单属性相关联,我们将其称为可实现性和自我限制性。我们介绍了通过这些特性的不受约束随机凸优化的一般设置,并通过算法稳定性镜头分析梯度方法的概括。在这种更广泛的环境中,我们获得了梯度下降和随机梯度下降的尖锐稳定性边界,这些梯度下降即使适用于大量梯度步骤,并使用它们来得出这些算法的通用泛化界限。最后,作为一般边界的直接应用,我们返回使用可分离数据的线性分类设置,并为梯度下降和随机梯度下降建立了几种新颖的测试损失和测试精度界限,用于各种尾巴衰减速率的多种损耗函数。在某些情况下,我们的界限显着改善了文献中现有的概括误差界限。
translated by 谷歌翻译
我们研究随机梯度下降(SGD)在多大程度上被理解为“常规”学习规则,该规则通过获得良好的培训数据来实现概括性能。我们考虑基本的随机凸优化框架,其中(一通道,无需替代)SGD在经典上是众所周知的,可以最大程度地降低人口风险,以$ o(1/\ sqrt n)$ $ O(1/\ sqrt n)$,并且出人意料地证明,存在问题实例SGD解决方案既表现出$ \ omega(1)$的经验风险和概括差距。因此,事实证明,从任何意义上讲,SGD在算法上都不是稳定的,并且其概括能力不能通过均匀的收敛性或任何其他当前已知的概括性结合技术来解释(除了其经典分析外)。然后,我们继续分析与替代SGD密切相关的相关性,为此我们表明不会发生类似现象,并证明其人口风险实际上确实以最佳速度融合。最后,我们在没有替换SGD的背景下解释了我们的主要结果,用于有限的和凸优化问题,并得出多上类别制度的上限和下限,从而在先前已知的结果上有了显着改善。
translated by 谷歌翻译
当以低精度实施梯度下降方法时,随机圆形方案的使用有助于防止因消失的梯度效应引起的收敛停滞。无偏见的随机圆形通过保留较小的更新,其概率与其相对幅度成正比,从而产生零偏差。这项研究为低精度计算中的梯度下降方法停滞提供了理论解释。此外,我们提出了两种新的随机圆形方案,这些方案交易了零偏置特性,其可能性更大以保持小梯度。我们的方法产生恒定的圆形偏置,平均而言,该偏置位于下降方向。对于凸问题,我们证明所提出的圆形方法通常对梯度下降的收敛速率产生有益影响。我们通过比较优化多项式逻辑回归模型的各种圆形方案的性能以及训练具有8位浮点格式的简单神经网络时,通过比较各种圆形方案的性能来验证我们的理论分析。
translated by 谷歌翻译
我们提出了一种对光学流动的语义靶向对抗攻击的新方法。在这种攻击中,目标是损坏特定对象类别或实例的流预测。通常,攻击者寻求隐藏输入中的对抗扰动。但是,输出的快速扫描显示攻击。相比之下,我们的方法有助于隐藏输出中的攻击者。由于促进偏移目标一致性的正常化术语,我们实现这一点。我们在领先的光学流模型上进行广泛的测试,以展示我们在白盒和黑匣子设置中的方法的好处。此外,我们展示了我们对依赖于光学流量的后续任务的攻击的有效性。
translated by 谷歌翻译
现实世界内容推荐市场展示了某些行为,并且由常见静态离线数据集中并不总是显而易见的限制。广告市场中常见的一个示例是SWIFT广告营业额。介绍新广告,旧广告每天都以高利率消失。另一个例子是广告不连续性,当由于各种原因(例如,预算耗尽,广告商的枯竭,由系统暂停,系统,更多),现有广告可能会出现和消失。这些行为有时会导致模型的损耗表面在短时间内发生巨大变化。为了解决这些行为,新型模型非常重要,实现这一目标(以及其他几个原因)往往采用对过去事件的小块的增量培训。这些行为和算法优化偶尔会导致模型参数以不可控制地变大,或者\ emph {diverge}。在这项工作中,通过对模型的潜伏向量施加仔细选择的一组约束来防止模型参数的系统方法。然后,我们设计了一种由原始 - 双优化算法启发的方法,以满足与增量模型训练很好的方式满足这些约束,并且不需要对底层模型训练算法进行任何重大修改。我们分析,展示和激励我们的偏移方法,这是一种协作过滤算法,它推动雅虎本土广告,这是VZM最大,更快的日益增长的企业之一,达到每年数亿美元的租金率。最后,我们进行了一个在线实验,该实验表明了发散情况的数量大幅减少,以及对用户体验和收入的显着改善。
translated by 谷歌翻译